Android 开发者日功能常开发几乎都是面向 Java/Kotlin 语法编程,对于.class 文件的关注相对较少。 当你反编译 .class 文件或在 Android 程序编译期间修改字节码做代码注入时,读懂字节码是一道绕不开的槛。
文章主要给出快速读懂一个 class 文件的方式,涉及到的 JVM 指令及字节码结构已做了整理,这部分知识平时用到的时候查一下便可,用多了自然记住了。 即使你是一个新手,按照下面的思路整合,你也可以从 0 上手。
读完本篇文章你会收获:
- class 文件结构长啥样
- JVM 操作指令有哪些
- 如何从二进制流中读懂 class 文件
举个栗子🌰 带你入门
编写一个简单的 .java 文件
使用 javac
编译 TestClass.java
输出 TestClass.Class
,得到的二进制流文件。可以通过工具查看其内容,在 MAC 平台上推荐使用 iHex-Hex Editor
以十六进制格式查看,大概长这个样子。
这看起来像 “天书”,无从下手。实际上,任何编程产物最终都会演化成二进制,它必定是按照某种规则来申明某种逻辑的。 Java 虚拟机为了能够解析这个文件,要求其内容必须按照严格格式来排版,这种结构格式便是 Class 文件结构。但是单单直到里面有哪些内容还不够,虚拟机还需要一套规则来操作这些内容,这些规则便是 字节码操作指令 。
要读懂这些 “天书”,先得了解 “天书” 是怎么写出来的。
class 文件结构长啥样
.java 文件
经过 JAVA编译器(javac)编译成中间代码字节码 .class 文件
。 .class 文件
是一个二进制文件,里面的内容已经是严格按照 Class 文件结构规则排列的。
下面表示是 Class 的文件结构表,依次按照行从上到下解析,也就是说文件开头优先解析 magic(魔数)。
类型 | 名称 | 描述 | 数量 |
---|---|---|---|
u4(4个字节) | magic | 确定该文件是否为一个能被虚拟机接受的Class文件,类似于ID | 1 |
u2(2个字节) | minot_version | 次版本号 | 1 |
u2(2个字节) | mahor_version | 主版本号 | 1 |
u2(2个字节) | constant_pool_count | 常量池容量计数值,从1开始计算,0则表示不引用任何一个常量池项目 | 1 |
cp_info | constant_pool | 常量池 | constant_pool_count-1 |
u2(2个字节) | access_flags | 访问标志 | 1 |
u2(2个字节) | this_class | 类索引 | 1 |
u2(2个字节) | super_class | 父类索引 | 1 |
u2(2个字节) | interfaces_count | 实现接口的数目 | 1 |
u2(4个字节) | interfaces | 接口索引 | interfaces_count |
u2(4个字节) | fields_count | 字段的数目 | 1 |
field_info | fields | 字段内容 | fields_count |
u2(2个字节) | methods_count | 方法的数目 | 1 |
method_info | methods | 方法内容 | methods_count |
u2(2个字节) | attributes_count | 属性的数目 | 1 |
attribute_info | attributes | 属性内容 | attributes_count |
单靠上面的表还不够,其中描述列中部分内容在字节码层面的描述,还需要根据特定表格进行查询解析,具体如下:
- 常量池对应 常量表 约束
- 访问标志对应 访问标志表 约束
- 字段对应 字段表 约束
- 方法对应 方法表 约束
- 属性对应 属性表 约束,同时属性内可能还需要进一步划分,对应 Code属性结构, 异常属性结构 等表约束
- 还有一些特殊字符串格式约束,比如 特殊字符串表 等等
常量表
常量池主要存放两种类型
- 字面量,包含文本字符串,final的常量值等
- 符号引用,类和接口的全限定名,字段的名称和描述符,方法的名称和描述符
Class文件只保存各个方法,字段信息,不保存内存信息。只有经过运行期转换才能得到真正的内存入口。当虚拟机运行时,需要从常量池中获取到对应的符号引用,再经过类创建者运行时解析,得到具体的内存地址。
类型 | 子结构 | 标志 | 描述 |
---|---|---|---|
CONSTANT_Utf8_info | tag | u1 = 1 | UTF-8编码的字符串 |
- | lenght | u2 | UTF-8编码的字符串占用的字节数 |
- | bytes | u1 | 长度为lenght的UTF-8编码的字符串 |
CONSTANT_Integer_info | tag | u1=3 | 整型字面量 |
- | bytes | u4 | 按照高位在前存储的int值 |
CONSTANT_Float_info | tag | u1=4 | 浮点型字面量 |
- | bytes | u4 | 按照高位在前存储的float值 |
CONSTANT_Long_info | tag | u1=5 | 长整型字面量 |
- | bytes | u8 | 按照高位在前存储的long值 |
CONSTANT_Double_info | tag | u1=6 | 双精度浮点型字面量 |
- | bytes | u8 | 按照高位在前存储的double值 |
CONSTANT_Class_info | tag | u1=7 | 类或接口的符号引用 |
- | bytes | u2 | 指向全限定名常量项的索引 |
CONSTANT_String_info | tag | u1=8 | 字符串类型字面量 |
- | bytes | u2 | 指向字符串字面量的索引 |
CONSTANT_Fieldref_info | tag | u1=9 | 字段的符号引用 |
- | index | u2 | 指向声明字段的类或者接口描述符 CONSTANT_Class_info 的索引项 |
- | index | u2 | 指向声明字段的类或者接口描述符CONSTANT_NameAndType_info 的索引项 |
CONSTANT_Methodred_info | tag | u1=10 | 类中方法的符号引用 |
- | index | u2 | 指向声明字段的类或者接口描述符 CONSTANT_Class_info 的索引项 |
- | index | u2 | 指向声明字段的类或者接口描述符CONSTANT_NameAndType_info 的索引项 |
CONSTANT_InterfaceMethodref_info | tag | u1=11 | 接口中方法的符号引用 |
- | index | u2 | 指向声明字段的类或者接口描述符 CONSTANT_Class_info 的索引项 |
- | index | u2 | 指向声明字段的类或者接口描述符CONSTANT_NameAndType_info 的索引项 |
CONSTANT_NameAndType_info | tag | u1=12 | 字段或方法的部分符号引用 |
- | index | u2 | 指向该字段或方法名称常量项的索引 |
- | index | u2 | 指向该字段或方法名称常量项的索引 |
CONSTANT_MethodHandle_info | tag | u1=15 | 表示方法句柄 |
- | reference_kind | u1 | 值必须在[1,9]中,它决定了方法句柄的类型。方法句柄类型的值表示方法句柄的字节码行为 |
- | reference_index | u2 | 值必须是对常量池的有效索引 |
CONSTANT_MethodType_info | tag | u1=16 | 识别方法类型 |
- | descriptor_index | u2 | 值必须是对常量池的有效索引,常量池在该索引处的项必须是CONSTANT_Utf8_info结构,表示方法的描述符 |
CONSTANT_InvokeDynamic_info | tag | u1=18 | 表示一个动态方法调用点 |
- | bootstrap_method_attar_index | u2 | 值必须是对当前Class文件中引导方法表的 bootstrap_methods[]数组的有效索引 |
- | name_and_type_index | u2 | 值必须是对当前常量池的有效索引,常量池在该索引处的值必须是CONSTANT_NameAndType_info结构,表示方法名和方法描述符 |
访问标志表
针对类,字段表,方法表中的访问标志进行划分。
类访问标志,用于识别一些类或者接口层次的访问信息, 包括这个Class是类还是接口,是否被定义成public类型,是否被定义成abstract类类型,如果是类的话,是否被声明为final等等
| 标志名称|标志值|描述|
|:—:|:—:|:—:|
|ACC_PUBLIC| 0x0001| 是否为public类型|
|ACC_FINAL| 0x0010| 是否被声明为final,只有类可设置|
|ACC_SUPER| 0x0020| 是否允许使用invokespecial字节码指令的新语意,invokespecial指令的语意在JDK1.0.2发生过变化,为了区别这条指令使用哪种语意,JDK1.0.2之后编译出来的类的这个标识必须都为真|
|ACC_INTERFACE| 0x0200| 标识这个是一个接口|
|ACC_ABSTRACT| 0x0400| 是否为abstract类型,对于接口或者抽象类来说,此标志的值都为真,其他类型为假|
|ACC_SYNTHETIC| 0x1000| 标识这个类并非由用户代码产生的|
|ACC_ANNOTATION| 0x2000| 标识这是一个注解|
|ACC_ENUM| 0x4000| 标识这是一个枚举|内部类访问标志
| 标志名称|标志值|描述|
|:—:|:—:|:—:|
|ACC_PUBLIC| 0x0001| 内部类是否为public|
|ACC_PRIVATE| 0x0002| 内部类是否为private|
|ACC_PROTECTED| 0x0004| 内部类是否为protected|
|ACC_STATIC| 0x0008| 内部类是否为protected|
|ACC_FINAL| 0x0010| 内部类是否为protected|
|ACC_INTERFACE| 0x0020| 内部类是否为接口|
|ACC_ABSTRACT| 0x0400| 内部类是否为abstract|
|ACC_SYNTHETIC| 0x1000| 内部类是否并非由用户代码产生|
|ACC_ANNOTATION| 0x2000| 内部类是否是一个注解|
|ACC_ENUM| 0x4000| 内部类是否是一个枚举|字段访问标志
| 标志名称|标志值|描述|
|:—:|:—:|:—:|
|ACC_PUBLIC| 0x0001| 字段是否为public|
|ACC_PRIVATE| 0x0002| 字段是否为private|
|ACC_PROTECTED| 0x0004| 字段是否为protected|
|ACC_STATIC| 0x0008| 字段是否为static
|ACC_FINAL| 0x0010| 字段是否为final|
|ACC_VOLATILE| 0x0040| 字段是否为volatile|
|ACC_TRANSIENT| 0x0080| 字段是否为transient|
|ACC_SYNTHETIC| 0x1000| 字段是否由编译器自动产生的|
|ACC_ENUM| 0x4000| 字段是否为enum|方法访问标志
| 标志名称|标志值|描述|
|:—:|:—:|:—:|
|ACC_PUBLIC| 0x0001| 方法是否为public|
|ACC_PRIVATE| 0x0002| 方法是否为private|
|ACC_PROTECTED| 0x0004| 方法是否为protected|
|ACC_STATIC| 0x0008| 方法是否为static
|ACC_FINAL| 0x0010| 方法是否为final|
|ACC_SYNCHRONIZED| 0x0020| 方法是否为synchronized|
|ACC_BRIDGE| 0x0040| 方法是否由编译器产生的桥接方法|
|ACC_VARARGS| 0x0080| 方法是否接受不定参数|
|ACC_NATIVE| 0x0100| 方法是否为native|
|ACC_ABSTRACT| 0x0400| 方法是否为abstract|
|ACC_STRICTFP| 0x0800| 方法是否为strictfp|
|ACC_SYNTHETIC| 0x1000| 方法是否由编译器自动产生的|
字段表
用于描述接口和类中声明的变量,包括类级别变量以及实例级别变量
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attributes_count | 1 |
u2 | attributes | attributes_count |
其中 access_flags 见上面访问标志表中的字段访问标志
方法表
方法表包含访问标志,名称索引和描述符索引,属性信息等几项
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attributes_count | 1 |
attribute_info | attributes | attributes_count |
其中方法的access_flags见上述的方法访问标志
属性表
属性表用于解释Class文件中字段表,方法表中携带的属性表集合,用于描述某些场景专有的信息。
属性名称 | 使用位置 | 含义 |
---|---|---|
Code | 方法表 | Java代码编译成的字节码指令 |
ConstantValue | 字段表 | final关键字定义的常量值 |
Deprecated | 类,方法表,字段表 | final关键字定义的常量值 |
Exceptions | 方法表 | final方法抛出的异常 |
EnclosingMethod | 类文件 | 仅当一个类为局部类或者匿名类时才能拥有这个属性,这个属性用于标识这个类所在的外围方法 |
InnerClasses | 类文件 | 内部类列表 |
LineNumberTable | Code属性 | Java源码的行号与字节码指令的对应关系 |
LocalVariableTable | Code属性 | 方法的局部变量描述 |
StackMapTable | Code属性 | JDK1.6中新增的属性,供新的类型检查校验器(Type Checker)检查和处理目标方法的局部变量和操作数栈锁需要的类型是否匹配 |
Signature | 类,方法表,字段表 | JDK1.5中新增的属性,这个属性用于支持泛型情况下的方法签名,在java语言中,任何类,接口,初始化方法或成员的泛型签名如果包含了类型变量(Type Variables)或者参数化类型(Parameterized Types),则Signature属性会为它记录泛型签名信息。由于java的泛型采用擦除法实现,在为了类型信息被擦除后导致签名混乱,需要这个属性记录泛型中的相关信息 |
SourceFile | 类文件 | 记录源文件名称 |
SourceDebugExtension | 类文件 | JDK1.6中新增的属性,SourceDebugExtension属性用于存储额外的调试信息。譬如在进行JSP文件调试时,无法通过Java堆栈来定位到JSP文件的行号,JSR-45规范为这些非Java语言编写,却需要编译成字节码并运行在Java虚拟机中的程序提供了一个进行调试的标准机制,使用SourceDebugExtension属性就可以用于存储这个标准所新加入的调试信息 |
Synthetic | 类,方法表,字段表 | 标识方法或者字段是否为编译器自动生成的 |
LocalVariableTypeTable | 类 | JDK1.5中新增的属性,它使用特征签名代替描述符,是为了引入泛型语法之后能描述泛型参数化类型而添加的 |
RuntimevisibleAnnotations | 类,方法表,字段表 | JDK1.5中新增的属性,为动态注解提供支持。RuntimevisibleAnnotations 属性用于指明哪些注解是运行时(实际上运行时就是进行反射调用)可见的 |
RuntimeInvisibleAnnotations | 类,方法表,字段表 | JDK1.5中新增的属性,与 RuntimevisibleAnnotations 属性作用刚好相反, 用于指明哪些注解是运行时不可见的 |
RuntimeVisibleParameterAnnotations | 方法表 | JDK1.5中新增的属性,作用与 RuntimevisibleAnnotations 属性类似,只不过作用对象为方法参数 |
RuntimeInvisibleParameterAnnotations | 方法表 | JDK1.5中新增的属性,作用与 RuntimeInvisibleAnnotations 属性类似,只不过作用对象为方法参数 |
AnnotationDetault | 方法表 | JDK1.5中新增的属性,用于记录注解类元素的默认值 |
BootstrapMethods | 类文件 | JDK1.5中新增的属性,用于保存 invokedynamic 指令引用的引导方法限定符 |
上述的每一个属性,都需要从常量池中引用一个 CONSTANT_Utf8_info类型常量来标示。还包含attribute_length(u4)用于标示属性值所占用的位数,后面再跟着属性内容。下面为一些常见的属性子表结构。
- Code属性结构表,用于描述代码块
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | max_stack | 1 |
u2 | max_locals | 1 |
u4 | code_length | 1 |
u1 | code | code_lenght |
u2 | exception_table_lenght | 1 |
exception_info | exception_table | exception_table_length |
u2 | attributes_count | 1 |
attribute_info | attributes | attributes_count |
- 异常属性结构表,用于描述异常信息
类型 | 名称 | 数量 |
---|---|---|
u2 | start_pc | 1 |
u2 | end_pc | 1 |
u2 | handler_pc | 1 |
u2 | catch_type | 1 |
- Exceptions属性结构表
区别与异常表,该表主要是列举中方法中可能抛出的受检查异常,也就是方法描述时throws关键字列举的异常
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | number_of_exceptions | 1 |
u2 | exception_index_table | number_of_exceptions |
- LineNumberTable属性结构表
用于描述Java源码行号与字节码行号之间的对应关系,默认声称到Class文件中。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | line_number_table_length | 1 |
line_number_info | line_number_table | line_number_table_length |
其中line_number_info包含start_pc和line_number两个u2类型的数据项。
- LocalVariableTable属性结构表
用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系,默认生成到Class文件中
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | local_variable_table_lenght | 1 |
local_variable_info | local_variable_table | local_variable_table_lenght |
其中 local_variable_info是代表栈帧与源码中局部变量的关联,见下表
类型 | 名称 | 含义 | 数量 |
---|---|---|---|
u2 | start_pc | 局部变量的生命周期开始的字节码偏移量 | 1 |
u2 | length | 局部变量的生命周期开始的作用范围覆盖长度 | 1 |
u2 | name_index | 指向常量池 CONSTANT_Utf8_info 索引 | 1 |
u2 | descriptor_index | 指向常量池 CONSTANT_Utf8_info 索引 | 1 |
u2 | index | 局部变量在栈帧局部变量表中Slot的位置 | 1 |
- SourceFile属性结构表
用于记录生成这个Class文件的源码文件名称
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | sourcefile_index | 1 |
其中 sourcefile_index为指向常量池 CONSTANT_Utf8_info 索引
- ConstantValue属性结构表
用于通知虚拟机自动为静态变量赋值。只有被static关键字修饰的变量才可以使用这项属性。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | constant_index | 1 |
- InnerClasses属性结构表
用于记录内部类与宿主类之间的关联,如果一个类中定义了内部类,编译器则会为它生成内部类INnerClasses属性
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | number_of_classes | 1 |
inner_classes_info | inner_classes | number_of_classes |
每一个inner_classes_info代表一个内部类信息,结构如下
类型 | 名称 | 含义 | 数量 |
---|---|---|---|
u2 | inner_class_info_index | 指向常量池 CONSTANT_Class_info 索引 | 1 |
u2 | outer_class_info_index | 指向常量池 CONSTANT_Class_info 索引 | 1 |
u2 | inner_name_index | 指向常量池 CONSTANT_Utf8_info 索引,代表这个内部类的名称,如果匿名则为0 | 1 |
u2 | inner_class_access_flags | 内部类的访问标志,见上述访问标志篇章 | 1 |
- Deprecated/Synthetic属性结构表
前者是用于标示某个类,字段或者方法是否不再推荐使用
后者是用于标示字段或者方法不是由Java源码直接产生,所有由非用户代码生成的方法都需要设置Synthetic属性或者ACC_SYNTHETIC标志,但是
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
- StackMapTable属性结构表
于JDK1.6之后添加在Class规范中,位于Code属性表中,该属性会在虚拟机类加载的字节码校验阶段被新类型检查检验器(Type Checker)使用。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | number_of_entries | 1 |
stack_map_frame | stack_map_frame_entries | number_of_entries |
- Signature属性结构表
于JDK1.5发布之后添加到Class规范中,它是一个可选的定长属性,可以出现在类,属性表,方法表结构的属性表中。该属性会记录泛型签名信息,在Java语言中泛型采用的是擦除法实现的伪泛型,在字节码(Code属性)中,泛型信息编译之后都统统被擦除掉。由于无法像C#等运行时支持获取真泛型类型,添加该属性用于弥补该缺陷,现在Java反射已经能获取到泛型类型。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | signature_index | 1 |
其中 signature_index 值必须是一个对常量池的有效索引且为 CONSTANT_Utf8_info,表示类签名,方法类型签名或字段类型签名。如果当前Signature属性是类文件的属性,则这个结构表示类签名,如果当前Signature属性是方法表的属性,则表示方法类型签名,如果当前Signature属性是字段表的属性,则表示字段类型签名。
- BootstrapMethods属性结构表
于JDK1.7发布后添加到Class文件规范中,是一个复杂变长的属性,位于类文件的属性表中。
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | num_bootstrap_methods | 1 |
bootstrap_method | bootstrap_methods | num_bootstrap_methods |
其中bootstrap_method结构如下
类型 | 名称 | 数量 |
---|---|---|
u2 | bootstrap_method_ref | 1 |
u2 | num_bootstrap_arguments | 1 |
u2 | bootstrap_arguments | num_bootstrap_arguments |
特殊字符串
- 全限定名,比如 com/yummylau/TestClass 其实就是把类全名的 “.” 换成 “/“,可以使用多个 “;”分割多个全限定名
- 简单名称,没有类型和参数修饰的方法或者字段的名字,比如方法 inc() 和字段 m 分别标示为 inc 和 m
- 描述符
标识字符 | 含义 |
---|---|
B | 基本类型 byte |
C | 基本类型 char |
D | 基本类型 double |
F | 基本类型 float |
I | 基本类型 int |
J | 基本类型 long |
S | 基本类型 short |
Z | 基本类型 boolean |
V | 基本类型 void |
L | 对象类型,比如 Ljava/lang/Object |
- 针对数组,每一个维度使用一个前置的”[“字符来描述,比如定义一个 “java.lang.String[][]”数组,被记录为“[[java.lang.String;”一个整型数组 “int[]” 被记录为[I
- 针对方法,使用以下描述符
方法场景 | 描述符 |
---|---|
void inc() | ()V |
java.lang.String toString() | ()Ljava/lang/String; |
int indexOf(char[]source,int sourceOffest,int sourceCount,char[] target,int targetOffset,int targetCOunt,int formIndex) | ([CII[CIII)I |
表格比较多,但是一般在使用的过程中逐步查找就可以了。
重新认识字节天书
这份字节天书,我重新按照上述的 class文件结构表 的字节区间规律,重新对字节进行了排版。
行从上到下一一对应 class文件结构表中的行。下面开始解析每行字节的含义,基本的逻辑都是索引到某个数据结构,该数据结构对应上述的某一张表格。
第1行 为 魔数
, 主要是用于确认这个文件是否能被虚拟机加载, CAFEBABE 其实就是 Baristas咖啡
。
第2行 为 主次版本号
, 从 java-class版本对应 可知表示 Java SE 10, 向下兼容到 JDK1.1。
第3行 为 常量池中常量数量
, 由于从 1 开始计数,第 0 项预留用于表示“不引用任何一个常量池项目”, 转化 16 进制之后可知常量池有 18 项常量。 每一项常量都对应 常量表 的某一项, 按照表中规定的每一项常量对应各自的结构。
第4行 为 第 1 项常量
,为类中方法的符号引用, 格式为 {第4项常量}.{第15项常量} ,为 “java/lang/Object.< init >:()V”
第5行 为 第 2 项常量
,为字段的符号引用, 格式为 {第3项常量}.{第16项常量} , 为 “TestClass.m:I”
第6行 为 第 3 项常量
,为类或接口的符号引用, 指向第 17 项常量,为 “TestClass”
第7行 为 第 4 项常量
,为类或接口的符号引用, 指向第 18 项常量,为 “java/lang/Object”
第8行 为 第 5 项常量
,为 UTF-8 编码的字符串, 长度为1, 转化得到 “m”
第9行 为 第 6 项常量
,为 UTF-8 编码的字符串, 长度为1, 转化得到 “I”
第10行 为 第 7 项常量
,为 UTF-8 编码的字符串, 长度为6, 转化得到 “< init >”
第11行 为 第 8 项常量
,为 UTF-8 编码的字符串, 长度为3, 转化得到 “()V”
第12行 为 第 9 项常量
,为 UTF-8 编码的字符串, 长度为4, 转化得到 “Code”
第13行 为 第 10 项常量
,为 UTF-8 编码的字符串, 长度为15, 转化得到 “LineNumberTable”
第14行 为 第 11 项常量
,为 UTF-8 编码的字符串, 长度为3, 转化得到 “inc”
第15行 为 第 12 项常量
,为 UTF-8 编码的字符串, 长度为3, 转化得到 “()I”
第16行 为 第 13 项常量
,为 UTF-8 编码的字符串, 长度为14, 转化得到 “SourceFile”
第17行 为 第 14 项常量
,为 UTF-8 编码的字符串, 长度为10, 转化得到 “TestClass.java”
第18行 为 第 15 项常量
,为字段或方法的部分符号引用, 格式为 {第7项常量}:{第8项常量} “< init >:()V”
第19行 为 第 16 项常量
,为字段或方法的部分符号引用,格式为 {第5项常量}:{第6项常量}, 为 “m:I”
第20行 为 第 17 项常量
,为 UTF-8 编码的字符串, 长度为9, 转化得到 “TestClass”
第21行 为 第 18 项常量
,为 UTF-8 编码的字符串, 长度为16, 转化得到 “java/lang/Object”
第22行 为 访问标志
, 查看 访问标志表 可知为 0x0021(0x0001|0x0020)表明这个是一个普通类,既不是接口,枚举也不是注解,被public关键字修饰但没有被声明为final和abstract
第23行 为 类索引
, 对应 第 3 项常量
, 为 “TestClass”
第24行 为 父类索引
, 对应 第 4 项常量
, 为 “java/lang/Object”
第25行 为 实现接口的数目
, 0 表示没有实现任何接口
第26行 为 字段的数目
, 存在一个字段需要解析
第27行 为 第 1 个字段
, 查看 字段表 可知 访问标志(0002)为 private, 名字(0005)为 m, 描述(0006)为 I, 没有属性(0000)
第28行 为 方法的数目
, 存在两个方法需要解析
第29-32行 为 第 1 个方法
, 查看 方法表 可知 访问标志(0001)为 public, 名字(0007)为 第 9 项常量
Code, 查看 属性表-Code属性结构表。但是发现 code 块内部分字节难以解析。这是因为部分还需要结合 JVM 操作字节码指令才可以。这里先 mark 暂停。
第33-36行 为 第 2 个方法
, 查看 方法表 可知 访问标志(0001)为 public, 名字(000B)为 inc, 描述(000C)为 ()I, 一个属性(0001)。也存在一个属性。从 34 行开始解析属性 0009解析为 第 9 项常量
Code, 同上,mark 暂停。
第37行 为 属性的数目
, 存在一个属性
第38行 为 为 第 1 个属性
, 000D解析为 第 13 项常量
“sourceFile”, 解析 sourceFile属性得到 “ TestClass.java”
经过上述的解析,我们可得到
到此,基本读懂了这份字节天书。 但是 Code 属性内容还是缺失。这时候我们需要一份 字节码指令总表 来帮助我们进一步解析 Code 里面涉及哪些指令及信息。
JVM 操作指令有哪些
下面是 JVM 操作指令表
字节码 | 助记符 | 指令含义 |
---|---|---|
0x00 | nop | 什么都不做 |
0x01 | aconst_null | 将 null 推送至栈顶 |
0x02 | iconst_m1 | 将 int 型 -1 推送至栈顶 |
0x03 | iconst_0 | 将 int 型 0 推送至栈顶 |
0x04 | iconst_1 | 将 int 型 1 推送至栈顶 |
0x05 | iconst_2 | 将 int 型 2 推送至栈顶 |
0x06 | iconst_3 | 将 int 型 3 推送至栈顶 |
0x07 | iconst_4 | 将 int 型 4 推送至栈顶 |
0x08 | iconst_5 | 将 int 型 5 推送至栈顶 |
0x09 | lconst_0 | 将 long 型 0 推送至栈顶 |
0x0a | lconst_1 | 将 long 型 1 推送至栈顶 |
0x0b | fconst_0 | 将 float 型 0 推送至栈顶 |
0x0c | fconst_1 | 将 float 型 1 推送至栈顶 |
0x0d | fconst_2 | 将 float 型 2 推送至栈顶 |
0x0e | dconst_0 | 将 double 型 0 推送至栈顶 |
0x0f | dconst_1 | 将 double 型 1 推送至栈顶 |
0x10 | bipush | 将单字节的常量(-128 - 127)推送至栈顶 |
0x11 | sipush | 将一个短整形常量常量(-32768 - 32767)推送至栈顶 |
0x12 | ldc | 将 int, float, String 型常量值从常量池中推送至栈顶 |
0x13 | ldc_w | 将 int, float, String 型常量值从常量池中推送至栈顶(宽索引) |
0x14 | ldc2_w | 将 long 或 float 型常量值从常量池中推送至栈顶(宽索引) |
0x15 | iload | 将指定的 int 型本地变量推送至栈顶 |
0x16 | lload | 将指定的 long 型本地变量推送至栈顶 |
0x17 | fload | 将指定的 float 型本地变量推送至栈顶 |
0x18 | dload | 将指定的 dload 型本地变量推送至栈顶 |
0x19 | aload | 将指定的引用类型本地变量推送至栈顶 |
0x1a | iload_0 | 将第一个 int 型本地变量推送至栈顶 |
0x1b | iload_1 | 将第二个 int 型本地变量推送至栈顶 |
0x1c | iload_2 | 将第三个 int 型本地变量推送至栈顶 |
0x1d | iload_3 | 将第四个 int 型本地变量推送至栈顶 |
0x1e | lload_0 | 将第一个 long 型本地变量推送至栈顶 |
0x1f | lload_1 | 将第二个 long 型本地变量推送至栈顶 |
0x20 | lload_2 | 将第三个 long 型本地变量推送至栈顶 |
0x21 | lload_3 | 将第四个 long 型本地变量推送至栈顶 |
0x22 | fload_0 | 将第一个 float 型本地变量推送至栈顶 |
0x23 | fload_1 | 将第二个 float 型本地变量推送至栈顶 |
0x24 | fload_2 | 将第三个 float 型本地变量推送至栈顶 |
0x25 | fload_3 | 将第四个 float 型本地变量推送至栈顶 |
0x26 | dload_0 | 将第一个 double 型本地变量推送至栈顶 |
0x27 | dload_1 | 将第二个 double 型本地变量推送至栈顶 |
0x28 | dload_2 | 将第三个 double 型本地变量推送至栈顶 |
0x29 | dload_3 | 将第四个 double 型本地变量推送至栈顶 |
0x2a | aload_0 | 将第一个引用类型本地变量推送至栈顶 |
0x2b | aload_1 | 将第二个引用类型本地变量推送至栈顶 |
0x2c | aload_2 | 将第三个引用类型本地变量推送至栈顶 |
0x2d | aload_3 | 将第四个引用类型本地变量推送至栈顶 |
0x2e | iaload | 将 int 型数组指定索引的值推送至栈顶 |
0x2f | laload | 将 long 型数组指定索引的值推送至栈顶 |
0x30 | faload | 将 float 型数组指定索引的值推送至栈顶 |
0x31 | daload | 将 double 型数组指定索引的值推送至栈顶 |
0x32 | aaload | 将引用型数组指定索引的值推送至栈顶 |
0x33 | baload | 将 boolean 或 byte 型数组指定索引的值推送至栈顶 |
0x34 | caload | 将 char 型数组指定索引的值推送至栈顶 |
0x35 | saload | 将 short 型数组指定索引的值推送至栈顶 |
0x36 | istore | 将栈顶 int 型数值存入指定本地变量 |
0x37 | lstore | 将栈顶 long 型数值存入指定本地变量 |
0x38 | fstore | 将栈顶 float 型数值存入指定本地变量 |
0x39 | dstore | 将栈顶 double 型数值存入指定本地变量 |
0x3a | astore | 将栈顶引用型数值存入指定本地变量 |
0x3b | istore_0 | 将栈顶 int 型数值存入第一个本地变量 |
0x3c | istore_1 | 将栈顶 int 型数值存入第二个本地变量 |
0x3d | istore_2 | 将栈顶 int 型数值存入第三个本地变量 |
0x3e | istore_3 | 将栈顶 int 型数值存入第四个本地变量 |
0x3f | lstore_0 | 将栈顶 long 型数值存入第一个本地变量 |
0x40 | lstore_1 | 将栈顶 long 型数值存入第二个本地变量 |
0x41 | lstore_2 | 将栈顶 long 型数值存入第三个本地变量 |
0x42 | lstore_3 | 将栈顶 long 型数值存入第四个本地变量 |
0x43 | fstore_0 | 将栈顶 float 型数值存入第一个本地变量 |
0x44 | fstore_1 | 将栈顶 float 型数值存入第二个本地变量 |
0x45 | fstore_2 | 将栈顶 float 型数值存入第三个本地变量 |
0x46 | fstore_3 | 将栈顶 float 型数值存入第四个本地变量 |
0x47 | dstore_0 | 将栈顶 double 型数值存入第一个本地变量 |
0x48 | dstore_1 | 将栈顶 double 型数值存入第二个本地变量 |
0x49 | dstore_2 | 将栈顶 double 型数值存入第三个本地变量 |
0x4a | dstore_3 | 将栈顶 double 型数值存入第四个本地变量 |
0x4b | astore_0 | 将栈顶引用型数值存入第一个本地变量 |
0x4c | astore_1 | 将栈顶引用型数值存入第二个本地变量 |
0x4d | astore_2 | 将栈顶引用型数值存入第三个本地变量 |
0x4e | astore_3 | 将栈顶引用型数值存入第四个本地变量 |
0x4f | iastore | 将栈顶 int 型数值存入指定数组的指定索引位置 |
0x50 | lastore | 将栈顶 long 型数值存入指定数组的指定索引位置 |
0x51 | fastore | 将栈顶 float 型数值存入指定数组的指定索引位置 |
0x52 | dastore | 将栈顶 double 型数值存入指定数组的指定索引位置 |
0x53 | aastore | 将栈顶引用型数值存入指定数组的指定索引位置 |
0x54 | bastore | 将栈顶 boolean 或 byte 型数值存入指定数组的指定索引位置 |
0x55 | castore | 将栈顶 char 型数值存入指定数组的指定索引位置 |
0x56 | sastore | 将栈顶 short 型数值存入指定数组的指定索引位置 |
0x57 | pop | 将栈顶数值弹出(数值不能是 long 或 double 类型) |
0x58 | pop_2 | 将栈顶的一个(对于 long 或 double 类型)或两个数值(对于非 long 或 double 的其他类型)弹出 |
0x59 | dup | 复制栈顶数值并将复制值压入栈顶 |
0x5a | dup_x1 | 复制栈顶数值并将两个复制值压入栈顶 |
0x5b | dup_x2 | 复制栈顶数值并将三个(或两个)复制值压入栈顶 |
0x5c | dup_2 | 复制栈顶一个(对于 long 或 double 类型)或两个(非 long 或 double 的其他类型)数值并将复制值压入栈顶 ) |
0x5d | dup_2_x1 | dup_x1 指令的双倍版本 |
0x5e | dup_2_x2 | dup_x2 指令的双倍版本 |
0x5f | swap | 将栈最顶端的两个数值互换(数值不能是 long 或 double 类型) |
0x60 | iadd | 将栈顶两 int 型数值相加并将结果压入栈顶 |
0x61 | ladd | 将栈顶两 long 型数值相加并将结果压入栈顶 |
0x62 | fadd | 将栈顶两 float 型数值相加并将结果压入栈顶 |
0x63 | dadd | 将栈顶两 double 型数值相加并将结果压入栈顶 |
0x64 | isub | 将栈顶两 int 型数值相减并将结果压入栈顶 |
0x65 | lsub | 将栈顶两 long 型数值相减并将结果压入栈顶 |
0x66 | fsub | 将栈顶两 float 型数值相减并将结果压入栈顶 |
0x67 | dsub | 将栈顶两 double 型数值相减并将结果压入栈顶 |
0x68 | imul | 将栈顶两 int 型数值相乘并将结果压入栈顶 |
0x69 | lmul | 将栈顶两 long 型数值相乘并将结果压入栈顶 |
0x6a | fmul | 将栈顶两 float 型数值相乘并将结果压入栈顶 |
0x6b | dmul | 将栈顶两 double 型数值相乘并将结果压入栈顶 |
0x6c | idiv | 将栈顶两 int 型数值相除并将结果压入栈顶 |
0x6d | ldiv | 将栈顶两 long 型数值相除并将结果压入栈顶 |
0x6e | fdiv | 将栈顶两 float 型数值相除并将结果压入栈顶 |
0x6f | ddiv | 将栈顶两 double 型数值相除并将结果压入栈顶 |
0x70 | irem | 将栈顶两 int 型数值作取模运算并将结果压入栈顶 |
0x71 | lrem | 将栈顶两 long 型数值作取模运算并将结果压入栈顶 |
0x72 | frem | 将栈顶两 float 型数值作取模运算并将结果压入栈顶 |
0x73 | drem | 将栈顶两 double 型数值作取模运算并将结果压入栈顶 |
0x74 | ineg | 将栈顶两 int 型数值作负并将结果压入栈顶 |
0x75 | lneg | 将栈顶两 long 型数值作负并将结果压入栈顶 |
0x76 | fneg | 将栈顶两 float 型数值作负并将结果压入栈顶 |
0x77 | dneg | 将栈顶两 double 型数值作负并将结果压入栈顶 |
0x78 | ishl | 将栈顶两 int 型数值左移位指定位数并将结果压入栈顶 |
0x79 | lshl | 将栈顶两 long 型数值左移位指定位数并将结果压入栈顶 |
0x7a | ishr | 将栈顶两 int 型数值右(带符号)移位指定位数并将结果压入栈顶 |
0x7b | lshr | 将栈顶两 long 型数值右(带符号)移位指定位数并将结果压入栈顶 |
0x7c | iushr | 将栈顶两 int 型数值右(无符号)移位指定位数并将结果压入栈顶 |
0x7d | lushr | 将栈顶两 long 型数值右(无符号)移位指定位数并将结果压入栈顶 |
0x7e | iand | 将栈顶两 int 型数值作 “按位与” 并将结果压入栈顶 |
0x7f | land | 将栈顶两 long 型数值作 “按位与” 并将结果压入栈顶 |
0x80 | ior | 将栈顶两 int 型数值作 “按位或” 并将结果压入栈顶 |
0x81 | lor | 将栈顶两 long 型数值作 “按位或” 并将结果压入栈顶 |
0x82 | ixor | 将栈顶两 int 型数值作 “按位异或” 并将结果压入栈顶 |
0x83 | lxor | 将栈顶两 long 型数值作 “按位异或” 并将结果压入栈顶 |
0x84 | iinc | 直接对 int 型变量增加指定值(如i++, i–, i+=2等) |
0x85 | i2l | 将栈顶 int 型数值强制转成 long 型数值并将结果压入栈顶 |
0x86 | i2f | 将栈顶 int 型数值强制转成 float 型数值并将结果压入栈顶 |
0x87 | i2d | 将栈顶 int 型数值强制转成 double 型数值并将结果压入栈顶 |
0x88 | l2i | 将栈顶 long 型数值强制转成 int 型数值并将结果压入栈顶 |
0x89 | l2f | 将栈顶 long 型数值强制转成 float 型数值并将结果压入栈顶 |
0x8a | l2d | 将栈顶 long 型数值强制转成 double 型数值并将结果压入栈顶 |
0x8b | f2i | 将栈顶 float 型数值强制转成 int 型数值并将结果压入栈顶 |
0x8c | f2l | 将栈顶 float 型数值强制转成 long 型数值并将结果压入栈顶 |
0x8d | f2d | 将栈顶 float 型数值强制转成 double 型数值并将结果压入栈顶 |
0x8e | d2i | 将栈顶 double 型数值强制转成 int 型数值并将结果压入栈顶 |
0x8f | d2l | 将栈顶 double 型数值强制转成 long 型数值并将结果压入栈顶 |
0x90 | d2f | 将栈顶 double 型数值强制转成 float 型数值并将结果压入栈顶 |
0x91 | i2b | 将栈顶 int 型数值强制转成 byte 型数值并将结果压入栈顶 |
0x92 | i2c | 将栈顶 int 型数值强制转成 char 型数值并将结果压入栈顶 |
0x93 | i2s | 将栈顶 int 型数值强制转成 short 型数值并将结果压入栈顶 |
0x94 | lcmp | 比较栈顶两 long 型数值的大小,并将结果(1, 0 或 -1)压入栈顶 |
0x95 | fcmpl | 比较栈顶两 float 型数值的大小,并将结果(1, 0 或 -1)压入栈顶; 当其中一个数值为 “NaN” 时,将 -1 压入栈顶 |
0x96 | fcmpg | 比较栈顶两 float 型数值的大小,并将结果(1, 0 或 -1)压入栈顶; 当其中一个数值为 “NaN” 时,将 1 压入栈顶 |
0x97 | dcmpl | 比较栈顶两 double 型数值的大小,并将结果(1, 0 或 -1)压入栈顶; 当其中一个数值为 “NaN” 时,将 -1 压入栈顶 |
0x98 | dcmpg | 比较栈顶两 double 型数值的大小,并将结果(1, 0 或 -1)压入栈顶; 当其中一个数值为 “NaN” 时,将 1 压入栈顶 |
0x99 | ifeg | 当栈顶 int 型数值等于 0 时跳转 |
0x9a | ifne | 当栈顶 int 型数值不等于 0 时跳转 |
0x9b | iflt | 当栈顶 int 型数值小于 0 时跳转 |
0x9c | ifge | 当栈顶 int 型数值大于或等于 0 时跳转 |
0x9d | ifgt | 当栈顶 int 型数值大于 0 时跳转 |
0x9e | ifle | 当栈顶 int 型数值小于或等于 0 时跳转 |
0x9f | if_icmpeq | 比较栈顶两 int 型数值的大小,当结果等于 0 时跳转 |
0xa0 | if_icmpne | 比较栈顶两 int 型数值的大小,当结果不等于 0 时跳转 |
0xa1 | if_icmplt | 比较栈顶两 int 型数值的大小,当结果小于 0 时跳转 |
0xa2 | if_icmpge | 比较栈顶两 int 型数值的大小,当结果大于或等于 0 时跳转 |
0xa3 | if_icmpgt | 比较栈顶两 int 型数值的大小,当结果大于 0 时跳转 |
0xa4 | if_icmple | 比较栈顶两 int 型数值的大小,当结果小于或等于 0 时跳转 |
0xa5 | if_icmpeq | 比较栈顶两引用型数值,当结果相等时跳转 |
0xa6 | if_icmpnc | 比较栈顶两引用型数值,当结果不相等时跳转 |
0xa7 | goto | 无条件跳转 |
0xa8 | jsr | 跳转至指定的 16 位 offset 位置,并将 jsr 的下一条指令地址压入栈顶 |
0xa9 | ret | 返回至本地变量指定的 index 的指令位置(一般与 jsr 或 jsr_w 联合使用) |
0xaa | tableswitch | 用于 switch 条件跳转, case 值连续(可变长度指令) |
0xab | lookupswitch | 用于 switch 条件跳转, case 值连不续(可变长度指令) |
0xac | ireturn | 从当前方法返回 int |
0xad | lreturn | 从当前方法返回 long |
0xae | freturn | 从当前方法返回 float |
0xaf | dreturn | 从当前方法返回 double |
0xb0 | areturn | 从当前方法返回对象引用 |
0xb1 | return | 从当前方法返回 void |
0xb2 | getstatic | 获取指定类的静态域,并将其值压入栈顶 |
0xb3 | putstatic | 为指定的类的静态域赋值 |
0xb4 | getfield | 获取指定类的实例域,并将其值压入栈顶 |
0xb5 | putfield | 为指定的类的实例域赋值 |
0xb6 | invokevirtual | 调用实例方法 |
0xb7 | invokespecial | 调用超类构造方法, 实例初始化方法,私有方法 |
0xb8 | invokestatic | 调用静态方法 |
0xb9 | invokeinterface | 调用接口方法 |
0xba | invokedynamic | 调用动态方法 |
0xbb | new | 创建一个对象,并将其引用值压入栈顶 |
0xbc | newarray | 创建一个指定的原始类型(如 int, float等)的数组,并将其引用值压入栈顶 |
0xbd | anewarray | 创建一个引用型(如 类,接口,数组)的数组,并将其引用值压入栈顶 |
0xbe | arraylength | 获得数组的长度值并压入栈顶 |
0xbf | athrow | 将栈顶的异常抛出 |
0xc0 | checkcast | 检验类型转换, 检验未通过将抛出 ClassCastException |
0xc1 | instanceof | 检验对象是否时指定类的实例, 如果是, 则将 1 压入栈顶,否则将 0 压入栈顶 |
0xc2 | monitorenter | 获得对象的锁,用于同步方法或同步块 |
0xc3 | monitorexit | 释放对象的锁,用于同步方法或同步块 |
0xc4 | wide | 扩展本地变量的宽度 |
0xc5 | multianewarray | 创建指定类型和指定维度的多维数组(执行该指令时,操作栈中必须包含各维度的长度值),并将其引用值压入栈顶 |
0xc6 | ifnull | 为 null 时跳转 |
0xc7 | ifnonnull | 不为 null 时跳转 |
0xc8 | goto_w | 无条件跳转(宽索引) |
0xc9 | jsr_w | 跳转至指定的 32 位 offset 位置,并将 jsr_w 的下一条指令地址压入栈顶 |
上述表格内容更为具体的信息可参考 官方JVM指令文档,除上述表外,还需要认识一些数据类型及转化对应规则,同时再对上述指令的使用场景做一些总结划分。
数据类型在指令中的转化
数据类型 | byte | short | int | long | float | double | char | reference |
---|---|---|---|---|---|---|---|---|
简化转化 | b | s | i | l | f | d | c | a |
指令集支持的数据类型
下面表格中T+指令构成 opcode, T 为上面表格各数据类型的简化转化。
opcode | byte | short | int | long | float | double | char | reference | |
---|---|---|---|---|---|---|---|---|---|
Tipush | bipush | sipush | |||||||
Tconst | iconst | lconst | fconst | dconst | aconst | ||||
Tload | iload | lload | fload | dload | aload | ||||
Tstore | istore | lstore | fstore | dstore | astore | ||||
Tinc | iinc | ||||||||
Taload | baload | saload | iaload | laload | faload | daload | caload | aaload | |
Tastore | bastore | sastore | iastore | lastore | fastore | dastore | castore | aastore | |
Tadd | iadd | ladd | fadd | dadd | |||||
Tsub | isub | lsub | fsub | dsub | |||||
Tmul | imul | lmul | fmul | dmul | |||||
Tdiv | idiv | ldiv | fdiv | ddiv | |||||
Trem | irem | lrem | frem | drem | |||||
Tneg | ineg | lneg | fneg | dneg | |||||
Tshl | ishl | lshl | |||||||
Tshr | ishr | lshr | |||||||
Tushr | iushr | lushr | |||||||
Tand | iand | land | |||||||
Tor | ior | lor | |||||||
Txor | ixor | lxor | |||||||
i2T | i2b | i2s | i2l | i2f | i2d | ||||
l2T | l2i | l2f | l2d | ||||||
f2T | f2i | f2l | f2d | ||||||
d2T | d2i | d2l | d2f | ||||||
Tcmp | lcmp | ||||||||
Tcml | fcml | dcml | |||||||
Tcmpg | fcmpg | dcmpg | |||||||
if_TcmpOP | if_icmpOP | if_acopOP | |||||||
Treturn | ireturn | lreturn | freturn | dreturn | areturn |
大部分指令没有支持byte,char和short甚至是boolean,编译器会在编译器或者运行期把这类数据扩展为 int类型数据。
加载/存储指令
加载/存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输。
- 将一个局部变量加载到操作栈:
Tload
,Tload_n
后者表示是一组指令。 - 将一个数值从操作数栈存储到局部变量表:
Tstore
,Tstore_n
后者表示是一组指令。 - 将一个常量加载到操作数栈:
Tipush
,ldc
,T_const
等 - 扩充局部变量表的访问索引指令:
wide
运算指令
对操作数栈的数值进行运算之后把结果重新存入操作栈栈顶。
- 加法指令
Tadd
- 减法指令
Tsub
- 乘法指令
Tmul
- 除法指令
Tdiv
- 求余指令
Trem
- 取反指令
Tneg
- 位移指令
Tshl
,Tshr
,Tushr
- 按位或指令
Tor
- 按位与指令
Tand
- 按位异或指令
Txor
- 局部变量自增指令
Tinc
- 比较指令
Tcmpg
,Tcmpl
类型转化指令
类型转化指令用于将两种不同的数值类型进行相互转换,这种转换操作一般用于实现用户代码中的显式转换操作,或者用于处理字节码指令集中数据类型相关指令无法与数据类型一一对应的问题。
- int类型转其他
i2T
- long类型转其他
l2T
- float类型转其他
f2T
- double类型转其他
d2T
对象创建与访问指令
尽管类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令。
- 创建类实例
new
- 创建数组
newarray
,anewarray
,multianewarray
- 访问类变量和实例变量
getfield
,putfield
,getstatic
,putstatic
- 把一个数组元素加载到操作数栈
Taload
- 将一个操作数栈的值存储到数组元素中
Tastore
- 取数组长度的指令
arraylength
- 检查类实例类型
instanceof
,checkcast
操作数栈管理指令
* 将操作数栈栈顶一个或者两个元素出栈 `pop`,`pop2`
* 复制栈顶一个或两个数值并将复制值重新压入栈顶 `dup`,`dup2`, `dup_x1`,`dup2_x1`,`dup_x2`,`dup2_x2`
* 将栈最顶端两个数值互换 `swap`
控制转移指令
让虚拟机可以有条件或者无条件地从特定位置指令执行程序而不是在控制转移指令的下一条指令执行程序。
- 条件分支
ifeq
,ifit
,ifle
,ifne
,ifgt
,ifge
,ifull
,ifnonnull
,if_icmpeq
,if_icmpne
,if_icmplt
,if_icmpgt
,if_icmple
,if_icmpge
,if_acmpeq
,if_acmpne
- 复合条件分支
tableswitch
,lookupswitch
- 无条件分支
goto
,goto_w
,jsr
,jsr_w
,ret
方法调用和返回指令
- 调用对象的实例方法
invokevirtual
,根据对象的实际类型进行分派 - 调用接口方法
invokeinterface
, 会在运行时搜索一个实现了这个接口的方法的对象,找到适合的方法进行调用 - 调用一些需要特殊处理的实例方法
invokespecial
,包括实例初始化方法,私有方法和父类方法 - 调用类方法
invokestatic
用于调用static方法 - 运行时动态解析处调用点限定符所引用的方法并执行该方法
invokedynamic
,区别于前面4条指令,它们都在固化在jvm内部,而该指令的分派逻辑是由用户所设定的引导方法决定的。
异常处理指令
athrow
指令用于完成显式抛出异常(throw语句)的操作,除了用throw语句之外,JVM还规定在运行时会在其他 JVM指令检测到异常状况的时候自动抛出。比如当除数为0的时候,JVM会在 idiv
或 ldiv
中抛出 ArithmeticException 异常。
同步指令
JVM的同步有一下场景,都是使用管程(Monitor)来支持
- 方法级的同步,不需要字节码控制,实现于方法调用和返回操作志宏。从方法表中 ACC_SYNCHRONIZED 得到一个方法是否是同步,如果被设置,则执行线程需要先持有管程才能执行,执行完之后释放管程。
- 方法内部一段指令序列的同步,由
synchronized
和指令monitorenter
和monitorexit
来支持synchronized
共同完成
我们的 🌰 非常简单,实际上用不到这么多指令的,其他的可备份用于查询。
指令集辅助解析 Code
有了上述指令集帮助及膝,回到 重新认识字节天书 中的第 29-36 行内容重新解析。
第29-32行 为 第 1 个方法
, 查看 方法表 可知 访问标志(0001)为 public, 名字(0007)为 第 9 项常量
Code, 查看 属性表-Code属性结构表 及结合指令集中操作符信息, Code 属性最终的内容如下。(看到这里,你应该尝试过一遍哦 😄)
第33-36行 为 第 2 个方法
, 查看 方法表 可知 访问标志(0001)为 public, 名字(000B)为 inc, 描述(000C)为 ()I, 一个属性(0001)。也存在一个属性。从 34 行开始解析属性 0009解析为 第 9 项常量
Code, 内容如下。
至此,.class 文件的内容基本确定可知。
为了验证我们的思路是否正确,可以通过 javap
查看 TestClass.class
的结构来进行对比。
除了 javap
帮我们做了格式化的工作外,也是按照我们分析字节码的逻辑来进行内容的输出, 感兴趣的伙伴可以查看 javap
内部实现。
当你读懂 Class 文件之后,你就可以进一步做很多工作了,比如借助 ASM 框架入侵 gradle 构建流程注入静态代码等,更多场景等你挖掘。
如果文章对您有帮助,欢迎点赞评论支持,若其中有错误,欢迎评论指出哦。
文章首发于 掘金-如何读懂晦涩的Class文件|进阶必备 欢迎关注我 👏